应 用 Wo 


TeamDR: 面 向 科 研 团 队 的 数据 知识 库 管 理 
系统 


刘 峰 1” 黎 建 辉 : 张 进 ! 韩 芳 : 刘 昂 : 
(中 国 科学 院 计算 机 网 络 信息 中 心 ”北京 100190) 
(中 国 科学 院 文 献 情 报 中 心 ” 北 京 100190) 

(中 国 科 学 院 大 学 ”北京 100049) 


iD 


ULD 


摘要 : 【 目的 ] 针对 科研 团队 中 分 散 的 科研 数据 缺乏 有 效 存 储 、 管 理 , 无 法 复 用 的 问题 , 研发 专门 的 数据 知识 库 
管理 系统 TeamDR。[ 应 用 背景 ] TeamDR 是 支撑 课题 组 等 科研 团队 用 户 完成 科研 数据 组 织 、 存 储 、 管 理 及 协作 
共享 的 便捷 Web 应 用 工具 ; 它 采 用 Java 为 主要 编程 语言 ， 提 供 注 册 即 可 用 的 云 服 务 版 和 本 地 安装 版 两 个 版 本 。 
【方法 】 针对 科研 多 数据 类 型 组 织 管理 问题 , 设计 动态 元 数据 内 容 模 板 , 同时 为 保证 数据 存储 容量 的 可 伸缩 性 、 
查询 性 能 达到 较 高 水 平 , 采用 MongoDB 作为 存储 设计 。[ 结果 】TeamDR 实现 了 科研 团队 数据 存储 与 管理 方面 
的 重要 功能 : 如 动态 元 数据 模板 、 分 级 共享 控制 、 元 数据 全 文 检索 等 , 试用 反馈 表明 它 满足 了 用 户 在 数据 存储 管 
理 方面 的 迫切 需求 。[【 结论 】TeamDR 系统 可 以 有 效 解 决 团队 科研 数据 存储 与 管理 、 共 享 与 协作 、 发 现 与 关联 方 
面 的 迫切 基本 需求 。 但 在 功能 便捷 性 、 完 备 性 、 扩 展 性 方面 存在 进一步 加 强 的 空间 。 
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深度 方面 , 学 科 数 据 知 识 库 面向 特定 学 科 领 域 , 且 往 
往 是 长 期 服务 , 表现 出 更 强 的 系统 化 与 专业 化 服务 能 
力 ; 在 服务 学 科 领 域 的 广度 方面 多 学 科 数 据 知识 库 
和 机 构 数 据 知识 库 明 显 更 有 优势 1。 

然而 就 整体 而 言 , 国内 外 数据 知识 库 的 建设 重点 
仍 集中 在 以 存储 加 工 数据 和 发 表 数据 为 主 的 公共 服务 


1 3 引 


数据 密集 型 科研 的 鞍 勃 发 展 ,促使 数据 管理 成 为 
科研 活动 中 密 不 可 分 的 组 成 部 分 。 进 而 推进 了 科学 数 
据 知 识 库 (Data Repositories, DRJ)DO 的 快速 发 展 。 

目前 , 数据 知识 库 主 要 分 为 机 构 数 据 知识 库 、 学 


了 


科 数 据 知识 库 、 多 学 科 数 据 知识 库 以 及 特定 项 目 数据 
知识 库 4 类 站。 其 中 , 在 数据 服务 的 开放 性 方面 , 学 科 
数据 知识 库 和 多 学 科 数 据 知 识 库 由 于 面向 广泛 的 科研 
群体 ,， 开放 性 最 强 , 而 机 构 数 据 知识 库 和 项 目 数据 知 
识 库 往 往 局 限于 相应 机 构 或 项 目 ; 在 服务 学 科 领 域 的 


DR 方面 。 而 针对 相对 分 散 的 科研 过 程 数据 存储 的 数 
据 知 识 库 建 设 的 重视 程度 还 不 够 。 

鉴于 此 , 笔者 重点 面向 科研 团队 数据 存储 与 管理 
问题 , 采用 动态 模板 设计 和 基于 MongoDB 的 存储 设 
计 研 发 了 TeamDREI 工 具 ， 以 期 帮助 科研 团队 有 效 完 
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成 数据 管理 工作 。 
2 需求 与 技术 思路 


2.1 国内 外 现状 

随 着 国内 外 数字 环境 的 发 展 科学 数据 以 及 生产 
数据 都 迅速 激增 和 积累 ,作为 数据 有 效 管理 和 研究 的 
重要 辅助 手段 ,为 满足 数据 人 员 的 处 理 需 求 , 各 类 数 
据 管理 和 共享 应 用 工具 也 随 之 出 现 外 。 

国外 针对 科研 数据 的 存储 管理 不 同 需求 也 开发 了 
一 系列 数据 管理 系统 和 存储 工具 ,如 非 营 利 组 织 开放 
知识 基金 会 开发 的 一 个 功能 强大 的 开源 数据 门户 平台 
软件 系统 CKAND、 加 州 大 学 数字 网 书馆 策 管 中 心 开 
发 的 新 型 的 仓储 服务 系统 UC3 Merrittts i、 研究 数据 的 
存储 和 自由 分 享 平台 FigsharelJ 存储 生 态 学 数据 的 权 
威 数据 仓储 库 Dryad DataStage .DataBank 以 及 Scholar 
Spheret | 等。 

(1) Figshare 是 一 种 新 的 分 享 开放 科学 数据 的 方 
式 , 其 理念 是 可 发 现 、 可 共享 和 可 引用 。 在 Figshare 
上 , 研究 人 员 以 可 引述 、 可 搜寻 的 方式 发 表 数 据 ， 所 有 
图 片 、 媒 体 等 上 传 , 全 都 以 CC 标示 ， 所 有 数据 集 则 以 
CC0 发 布 。Figshare 男 一 个 重要 特色 是 鼓励 发 布 示 发 
表 的 负面 结果 (Negative Data) 和 图 片 , 通过 这 些 数据 ， 
其 他 研究 人 员 将 不 会 重复 工作 外 。 通 过 采用 Amazon 
基于 云 的 数据 管理 系统 , Figshare 保 证 了 数据 存储 的 安 
全 性 和 可 靠 性 。 

(2) Scholar Sphere 是 由 宾 州 州立 大 学 开发 的 开放 
仓储 服务 系统 ， 师 生 和 各 类 人 员 能 够 使 用 其 收集 和 存 
储 研究 产 出 并 且 创 建 一 个 持久 的 、 可 读 和 可 引用 的 记 
录 , 资源 类 型 包括 论文 、 演 示 文 稿 、 出 版 物 、 数 据 集 、 
学 术 杂 志 、 数 据 、 技 术 报告 、 音 视频 材料 、 年 报 、 简 
报 及 其 他 成 果 等 。 研 究 者 也 能 够 利用 此 服务 完成 基金 

组 织 共 享 和 管理 研究 数据 的 要 求 。 
国内 也 涌现 出 一 系列 优秀 的 数据 管 忆 
团队 文档 库 、 百 度 云 盘 、 
云 等 。 

(1) 团队 文档 库 是 由 中 国 科 技 网 出 品 的 一 个 面向 
团队 的 文档 数据 协作 和 管理 工具 ,对 于 科研 团队 、 个 
人 、 项 目 团队 、 兴 趣 组 等 一 系列 多 人 组 织 , 可 以 辅助 
有 效 进行 文档 型 数据 的 协作 管理 工作 0。 文档 库 提供 
专属 团队 空间 , 用 户 可 以 加 入 多 个 团队 , 或 构建 多 个 


时 平台 ， 如 
百 会 创造 者 、 够 快 、 简 省 
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团队 , 支持 协作 编辑 、 文 档 云 存储 等 , 方便 共享 , 不怕 
丢失 。 

(2) 简 道 云 是 通过 表单 的 方式 实现 数据 搜集 与 管 
理 的 工具 , 用户 可 以 通过 其 表单 自 定义 的 方式 , 搭建 
属于 自己 的 数据 管理 软件 1。 主要 提供 数据 搜集 、 数 
据 管 理 、 应 用 定制 等 功能 , 而 且 它 的 权限 控制 功能 
以 实现 利用 表单 做 内 部 管理 。 简 道 云 既 可 以 创建 各 种 
在 线 报名 表单 , 反馈 、 调 查 表单 ,用 来 公开 搜集 数据 ， 
又 可 以 基于 企业 内 部 的 数据 完成 数据 整理 与 协作 ,还 
提供 丰富 的 图 表 组 件 ， 以 供 做 好 数据 分 析 。 

几 种 不 同 的 数据 管理 应 用 的 重点 功能 比较 如 表 1 
所 示 : 


表 1 数据 管理 应 


j 比较 


应 用 名 称 Figshare ”Scholar Sphere 团队 文档 库 简 道 云 
数据 存储 方式 NoSQL NoSQL NoSQL DB 
大 文件 上 传 ”1GB 2GB 1GB x 
元 数据 模板 “9 种 固定 模板 多 种 固定 模板 x 
多 粒度 共享 ”x x V 数据 集 
数据 组 织 数据 集 数据 集 目录 WY 
数据 发 布 x x x V 

全 面 计 量 统 。 , , a 

特色 功能 让 i 


比较 结果 表明 , 虽然 现 有 的 面向 科研 团队 的 数据 
管理 工具 在 存储 和 功能 方面 各 具 特 色 , 但 在 综合 服务 
方面 并 未 能 很 好 地 满足 科研 数据 存储 和 组 织 管理 的 最 
基本 需求 。 
2.2 ”应 用 需求 

调研 分 析 发 现 ， 当 前 科研 团队 在 数据 管理 方面 存 
在 着 迫切 的 应 用 需求 ,突出 表现 为 以 下 方面 : 

(1) 科研 数据 分 散在 科研 人 员 手 中 , 无 法 持续 存 
储 积累 , 极 易 丢失 。 

(2) 科研 过 程 与 科研 数据 分 离 ,， 缺乏 有 效 的 电子 
化 整体 存储 管理 工具 。 

(3) 科研 过 程 管理 不 规范 ,科研 数据 的 详细 元 数 
据 缺 失 严重 ,数据 无 法 有 效 理 解 、 漳 源 、 验 证 与 重用 。 

(4) 科研 数据 共享 及 服务 功能 极 不 完善 , 数据 共享 
模式 单一 , 数据 检索 、 同 步 困 难 , 降低 了 科研 效率 。 
2.3 ”定位 与 设计 

鉴于 以 上 分 析 与 需求 , TeamDR 是 定位 于 针对 科研 
团队 不 同 来 源 、 多 类 型 科研 课题 数据 进行 存储 管理 及 
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协作 共享 的 工具 ,目前 提供 云端 版 和 本 地 版 两 个 版 
本 。 该 工具 重点 专注 于 对 科研 数据 的 存储 与 管理 ; 提 
供 面向 课题 组 的 数据 共享 与 协作 ; 方便 数据 的 有 效 发 
现 与 关联 三 个 方面 。 

(1) 存储 与 管理 

作为 面向 科研 团队 的 数据 知识 库 管理 系统 ， 
TeamDR 专注 于 课题 组 各 类 科研 数据 资源 的 持续 积累 
和 有 效 管理 , 通过 文件 或 关系 数据 库 的 存储 实现 数据 
资源 长 效 保存 和 传承 。 构 建 课题 组 数据 资源 存储 库 的 
数据 来 源 及 存储 类 型 结构 如 图 1 所 示 : 


资源 存储 库 
图 1 课题 组 数据 资源 存储 库 的 数据 来 源 
及 存储 类 型 结构 


在 组 织 管理 上 ，TeamDR 基于 目录 层级 和 数据 集 
合 进行 结构 组 织 , 数据 根据 分 类 目录 组 织 归 档 , 再 以 
面向 科研 主题 的 数据 集合 作为 存储 基本 单位 ， 对 数据 
集 元 数据 项 及 设置 提供 可 动态 定制 功能 , 组 织 结构 如 
图 2 所 示 。TeamDR 同时 兼容 关系 型 数据 ， 支持 数据 
在 线 协同 编辑 与 检索 , 支持 Excel 表单 与 关系 型 数据 
库 表 间 的 导入 和 导出 。 


目录 层级 
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数据 国 实验 记录 
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图 2 数据 集合 的 目录 层级 结构 
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(2) 共享 与 协作 

TeamDR 支持 课题 组 的 数据 协作 和 共享, 课题 组 
成 员 可 针对 集合 和 关系 型 数据 库 协 作 创建 数据 内 容 ， 
通过 设 定数 据 共享 权限 和 相关 标签 标注 ， 实 现 各 种 数 
据 的 灵活 共享 需求 ,并 保证 系统 安全 。 

课题 组 数据 资源 库 划分 为 个 人 空间 、 项 目 组 空间 
以 及 课题 组 空间 三 部 分 , 个 人 空间 存储 用 户 私 有 数据 ， 
项 目 组 空间 存储 以 项 目 ( 子 课题 ) 为 单位 的 协同 工作 数 
据 , 课题 组 空间 存储 课题 组 公有 数据 。 用 户 在 各 空间 
进行 数据 分 享 的 权限 设置 如 图 3 所 示 : 


课题 组 空间 


分 享 到 


个 人 空间 项 目 组 


图 3 用 户 数 据 的 权限 共享 方式 


为 满足 课题 组 成 员 共享 公开 科研 数据 的 需求 ， 系 
统 为 科研 用 户 提供 数据 网 站 的 基本 模板 , 课题 组 管理 
员 用 户 可 通过 简单 配置 ， 即 可 以 快速 发 布 数据 共享 网 
站 ,如 图 4 所 示 : 


人 人) 由 


图 4 基于 模板 发 布 的 数据 共享 网 站 

(3) 发 现 与 关联 

TeamDR 每 类 数据 集合 具有 可 定制 的 详细 元 数据 
言 息 ; 科研 用 户 可 根据 特定 的 学 科 需 求 灵 活 定制 不 同 
类 型 的 元 数据 内 容 模板 ， 自 由 配置 数据 模板 的 各 种 录 
入 属性 , 满足 领域 专属 数据 管理 需求 ("1 通过 关联 ， 可 
快速 定位 科研 主题 过 程 的 原始 数据 ,提供 全 文 检 索 功 
能 ， 让 科研 数据 变 得 可 理解 、 可 验证 、 可 追溯 。 元 数 
据 模 板 的 定制 流程 如 图 5 所 示 。 
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图 5 元 数据 模板 的 定制 流程 


2.4 技术 路 线 

TeamDR 采用 模块 化 的 设计 思路 ,将 系统 规划 为 
多 个 服务 模块 ， 每 个 服务 模块 再 细 化 为 多 个 子 服务 模 
块 。 系 统 功 能 包括 三 个 主要 部 分 : 数据 资源 的 存储 管 
理 、 数 据 资 源 的 检索 和 数据 资源 的 共享 、 辅 助 功 能 还 
包括 数据 发 布 和 消息 管理 等 。 

系统 整体 设计 采用 MVC 架构 ， 对 模型 维护 、 数 据 
展示 、 请 求 与 响应 进行 分 层 处 理 。 使 用 Spring MVC 
开发 框架 , 采用 功能 强大 并 且 容 易 集 成 的 Apache 
Shiro 安全 框架 进行 权限 控制 。 在 用 户 交 互 上 , 借鉴 主 
流 Web 在 线 资 源 管理 应 用 的 视图 模式 , 提供 类 似 于 桌 
面 资源 管理 器 的 操作 界面 用 户 界面 采用 Ajax 异步 刷 
新 技术 , 为 用 户 提供 数据 资源 浏览 过 程 无 跳 转 的 体验 ; 
以 BootStrap 作为 前 端 页 面 设计 的 基本 框架 ， 能够 在 不 


DB 


系统 数据 库 集群 


同 分 辩 率 的 设备 上 实现 良好 展示 ,并 保障 前 端 界 面 安 
全 友好 。 针 对 科研 数据 的 多 样 性 和 不 确定 性 , 采用 
MongoDB 存储 元 数据 信息 和 结构 化 数据 , 并 对 文件 
型 数据 建立 索引 ; 使 用 云 存 储 技术 对 文件 型 数据 进行 
存储 , 便于 维护 和 备份 。 


3 ”实现 方案 


3.1 系统 架构 设计 

TeamDR 是 一 个 B/S 架构 的 应 用 系统 , 不 仅 具 有 
易 部 署 、 客 户 端 压力 小 等 优点 ,还 拥有 典型 的 3-Tier 
分 层 结构 ,用 户 与 数据 的 交互 都 通过 中 间 服 务 层 建立 
和 进行 ,保证 了 低 耦 合 的 设计 思想 。 网 6 是 TeamDR 
的 系统 架构 图 ,从 逻辑 上 可 将 系统 划分 为 三 层 : 存储 
层 、 服 务 层 和 应 用 层 。 


图 6 TeamDR 系统 架构 
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(1) 存储 层 是 系统 数据 存储 管理 的 基础 ,用户 的 
科研 数据 、 元 数据 、 以 及 系统 数据 等 都 在 这 层 进行 持 
久 化 ,根据 数据 类 型 的 不 同 , 使 用 MongoDB 数据 库 集 
群 存储 结构 化 数据 , 使 用 云 存储 文件 系统 管理 非 结 构 
化 文件 型 数据 。 这 样 可 以 充分 利用 各 存储 系统 的 优势 ， 
保证 数据 存储 与 获取 的 效率 。 

(2) 服务 层 是 系统 的 核心 业务 逻辑 层 ， 围绕 科研 
数据 的 存储 、 浏 览 和 分 享 等 主要 功能 分 模块 进行 实现 。 
其 中 数据 访问 使 用 Spring Data MongoDB 构架 支持 服 
务 层 与 MongoDB 数据 库 的 交互 , 而 文件 系统 的 存储 
采用 三 层 Hash 目录 的 存储 操作 接口 。 系 统 服 务 层 的 功 
能 模块 由 数据 资源 管理 、 数 据 检 索 、 数 据 接口 、 其 他 
工具 类 等 模块 构成 。 其 中 , 数据 资源 管理 主要 是 对 用 
户 上 传 数据 、 浏 览 数据 和 进行 数据 分 享 等 操作 提供 服 
务 支 持 ， 同 时 保证 各 子 模块 间 功 能 的 协调 。 数 据 检索 
主要 负责 提供 基于 数据 集合 名 称 、 数 据 类 型 和 元 数据 
的 检索 功能 。 数 据 接 口 主要 向 其 他 应 用 提供 开放 访问 
课题 组 数据 资源 的 接口 , 包括 获取 目录 下 资源 列表 、 
获取 数据 集合 元 数据 和 获取 数据 资源 等 多 种 功能 ， 
以 及 受 限 数据 集合 的 创建 、 数 据 的 上 传 和 发 布 等 功 
能 。 其 他 工具 类 提供 如 记录 操作 日 志 、 发 送 邮 件 等 系 
统 功能 。 

(3) 应 用 层 是 在 基于 以 上 服务 层 所 提供 的 功能 接 
口 进行 开发 的 应 用 程序 ,从 数据 采集 、 数 据 同步 、 数 
据 查 询 到 数据 发 布 ， 旨 在 为 用 户 提供 更 丰富 的 功能 
验 。 目 前 , TeamDR 正在 进行 移动 端 数据 录入 应 用 , 研 
究 成 果实 验 数 据 关联 查找 应 用 , 数据 同步 客户 端 和 科 
研 数据 发 布 对 接 等 的 开发 。 

3.2 ”关键 技术 设计 

(1) 三 层 Hash 目录 存储 设计 

TeamDR 采用 三 层 Hash 目录 存储 方案 ,对 每 一 个 
课题 组 建立 一 个 根 目 录 , 课题 组 的 数据 文件 存放 在 各 
自 根 目录 下 。 由 于 不 同 硬 盘 格 式 能 够 存放 的 最 大 文件 
数目 不 同 ,同时 考虑 文件 的 索引 和 读 取 效率 , 不 能 简 
单 将 课题 组 内 所 有 的 文件 都 存放 在 一 个 目录 下 ,因此 
建立 一 种 基于 Hash 算 法 的 目录 索引 方案 ,针对 每 个 文 
件 , 将 MongoDB 生成 的 唯一 索引 作为 文件 的 名 称 ， 同 
时 将 文件 原 属性 作为 元 数据 抽取 出 来 存 人 MongoDB 
中 ; 对 文件 名 称 使 用 三 层 Hash 算法 , 计算 出 相应 的 三 
层 目 录 路 径 , 具体 算法 如 下 : 
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hash(filename)=HashCode(ObjectId) 

path1=hash (filename)&255 

path2=(hash(filename)>>8)&255 

path3=(hash(filename)>>16)&255 
path=Contact(path1,path2,path3) 

中 对 MongoDB 生成 的 唯一 标示 ObjectId 做 HashCode 
运算 , 得 到 文件 名 的 Hash 值 ; 

@) 将 文件 名 的 Hash 值 与 255 做 与 运算 , 得 到 第 一 层 文 
件 夹 名 称 ; 

图 将 文件 名 的 Hash 值 向 右 位 移 8 位 ,再 与 255 做 与 运 
算 ， 得 到 第 二 层 文 件 夹 名 称 ; 

图 将 文件 名 的 Hash 值 向 右 位 移 16 位 ， 再 与 255 做 与 运 
算 ， 得 到 第 三 层 文 件 夹 名 称 ; 

回 将 得 到 的 三 层 目录 的 地 址 连接 起 来 ， 即 可 得 到 相对 
课题 组 存储 目录 的 相对 路 径 地 址 。 

三 层 Hash 存储 设计 可 以 避免 单个 文件 夹 内 文件 
数目 过 多 的 问题 , 同时 在 文件 的 寻 址 上 没有 过 多 性 能 
损耗 。 三 层 Hash 存储 设计 是 以 课题 组 为 单位 , 因此 不 
会 造成 课题 组 之 间 的 数据 存储 混乱 无 序 , 保证 课题 组 
的 文件 数据 易 维 护 、 易 备份 。 

(2) 基于 HTTP 协议 的 大 文件 上 传 设计 

大 文件 上 传 问题 一 直 困扰 许 多 B/S 架构 的 系统 ， 
通过 HTTP 协议 单一 连接 上 传 , 通常 会 出 现 连接 超时 
等 问题 ， 即 使 对 服务 器 端 进行 超时 限制 修改 , 如果 在 
上 传 中 出 现 错误 ,就 会 导致 前 功 尽 弃 , 需要 重新 上 传 。 
目前 针对 大 文件 上 传 的 解决 方案 主要 通过 安装 第 三 方 
组 件 实现 , 例如 Java Applet 方 式 .ActiveX 上 传 组 件 等 ， 
但 效果 并 不 理想 。TeamDR 利用 HTML5 技术 、MD5 
算法 中 、 文 件 拼接 等 技术 , 很 好 地 解决 了 大 文件 上 传 
问题 。 图 7 是 TeamDR 上 传 文件 模块 的 流程 图 。 
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TeamDR 大 文件 上 传 处 理 的 具体 流程 如 下 : 

人 用户 在 浏览 器 端 选择 上 传 文件 后 , 通过 HTML5 File 
API 获取 文件 大 小 ， 如 果 文 件 小 于 10MB, 将 直接 上 传 文件 ; 

人 @) 当 文件 大 于 10MB 时 , 通过 HTML5 Blob API 计算 文 
件 的 MD5 值 ， 获 取 文 件 的 类 型 、 大 小 。 由 于 文件 较 大 时 计 
算 文件 MD5 值 花 费时 间 较 长 , TeamDR 采用 简易 MD5 值 计 
算 方 法 ,截取 文件 前 64KB 数据 和 文件 末尾 64KB 数据 , 计 
算 这 128KB 数据 的 MD5 值 ， 具体 计算 方法 如 下 : 

S1= file.slice(0,65536) 

S2= file.slice(file.size—65536,file.size) 

MDS(file) = MD5(S1+S2) 

此 算法 速度 较 快 ， 并且 可 以 与 文件 类 型 和 文件 大 小 联 
会 唯一 标识 此 文件 。 

图 通过 MD5 值 、 文 件 类 型 、 文 件 大 小 查询 服务 器 上 是 
否 有 未 完成 上 传 的 文件 。 如 果 服 务 器 端 查 找到 此 文件 之 前 上 
传 过 , 但 是 没有 完全 上 传 , 则 获取 已 上 传 文件 的 大 小 ， 并 作 
为 上 传 的 起 始 字 节点 ,继续 上 传 文件 。 

@ 如 果 服 务 器 没有 找到 相关 文件 ， 首 先 在 服务 器 端 存 
储 文件 名 、 文 件 大 小 、 文 件 类 型 以 及 MD5 值 ， 并 生成 唯一 
ID, 便于 上 传 失败 后 断 点 续 传 ; 浏览 器 获取 唯一 ID 后 ,将 文 
件 分 割 成 不 超过 10MB 大 小 片段 ， 并 顺序 上 传 。 服 务 器 收 到 
文件 片段 后 , 根据 唯一 ID 找到 服务 器 上 已 上 传 的 文件 ， 并 
将 新 上 传 的 片段 追加 到 文件 末尾 。 

(3) 基于 HTML5 的 文档 在 线 预览 设计 

文档 在 线 预览 功能 可 以 实现 用 户 无 需 安装 相应 软 
件 , 通过 浏览 器 即 可 浏览 相关 文档 ，TeamDR 支持 
Word、PowerPoint、Excel、PDF 等 格式 文档 的 在 线 预 
览 -。 当 前 比较 流行 的 文档 在 线 预 览 方案 大 多 基于 Flash， 
如 豆 丁 网 。 

TeamDR 采 用 HTML5 技术 展示 文档 内 容 , 不 再 受 
Flash 限制 , 页 面 展示 效果 更 加 良好 。 并 可 让 开发 者 利 
用 JavaScript 操作 其 对 象 , 在 网 页 上 绘制 图 形 图 像 " 
而 在 HTML 中 则 需要 Flash 插件 实现 。TeamDR 使 用 
Mozilla Lab 支持 的 PDFjs 作为 浏览 器 端 呈 现 文档 的 工 
具 , 并 在 其 上 进行 二 次 开发 , 与 TeamDR 的 文件 上 传 
模块 、 数 据 存储 等 模块 结合 ,提供 流畅 并 且 功 能 丰富 
的 文档 在 线 预 览 服务 。 具 体 流程 如 图 8 所 示 。 

用 户 通过 TeamDR 系统 上 传 文档 后 ,数据 库 会 
存储 文档 的 各 种 属性 ， 如 果 文 档 是 Word、Excel、 
PowerPoint 等 Office 文档 , TeamDR 会 将 文档 转换 为 
PDF 格式 ,便于 在 线 展示 。 为 了 提高 用 户 体验 ， 
TeamDR 在 后 台 设 置 了 文档 转换 线程 池 ， 能 够 同时 
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转换 多 个 文档 。 

TeamDR 目前 支持 Office 文档 和 PDF 文档 的 预览 ， 
并 支持 全 屏 展 示 等 功能 。 页 面 采 用 HTML5 技术 , 与 各 
大 主流 浏览 器 兼容 , 并且 摆脱 了 对 Flash 插件 的 依赖 ， 
在 安全 性 设置 较 高 的 浏览 器 中 依然 能 够 正常 展示 。 


4 应 用 效果 


4.1 实现 与 测试 环境 

TeamDR 的 云端 版 本 的 开发 与 测试 主要 依托 中 国 
科学 院 计 算 机 网 络 信息 中 心 的 海 云 创新 试验 环境 平台 
进行 。 此 平台 整体 具备 1.2PB 的 可 扩展 在 线 存储 容量 ， 
单 连接 WebService 传输 性 能 达 150Mb/s 的 网 络 。 用 户 
可 进行 自助 式 的 服务 申请 ,充分 享有 云 计算 服务 环境 
的 可 伸缩 、 可 扩展 的 特性 ,以 及 专业 的 7x24 小 时 运 维 
团队 的 技术 支持 。 基 于 此 平台 的 开发 为 TeamDR 的 部 
署 和 扩展 都 带 来 极 大 的 便利 ,节约 成 本 ， 为 最 终 用 户 
提供 更 稳定 、 更 安全 的 服务 。 软 件 的 开发 主要 基于 
Java、JavaScript、HTML、CSS 等 语言 ,选用 主流 稳定 
的 开发 框架 如 Spring、BootStrap 等 。 
4.2 ”应 用 成 效 

经 过 对 科研 团队 用 户 数 据 管 理 需求 的 明确 ， 对 关 
键 技术 进行 研究 与 实现 , TeamDR 云端 版 本 已 于 2015 年 
8 月 初 正式 上 线 运营 ,本 地 版 本 也 在 8 月 底 提供 下 载 和 
服务 .产品 上 线 后 对 特定 科学 数据 库 建 库 单位 进行 了 初 
步 宣 传 , 并 在 科学 数据 大 会 、 面 向 科研 单位 的 交流 研讨 
会 上 进行 了 推广 , 截至 2015 年 10 月 底 , 云端 注册 用 户 
90 余 名 , 本 地 版 本 下 载 80 余 次 , 云端 课题 组 达 70 余 
个 。 目前 的 主要 用 户 和 课题 组 集中 在 化 学 、 大 气 环境 学 
科 以 及 生物 学 科 等 领域 , 重点 对 中 国 科学 院 大 连 化 学 
物理 研究 所 分 离 分 析 化 学 重点 实验 室 、 生 物 技 术 部 
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1810 组 , 地 理科 学 与 资源 研究 所 资源 地 理 与 国土 资源 
研究 室 以 及 心理 研究 所 核磁 共振 课题 组 等 进行 TeamDR 
使 用 培训 , 并 部 署 了 本 地 版 正式 使 用 。 图 9 为 TeamDR 
云端 课题 组 的 学 科 分 布展 示 。 
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图 9 云端 课题 组 的 学 科 分 布 


另外 , 在 中 国 科学 数据 领域 最 具 影 响 力 的 创新 大 
会 一 一 2015 科学 数据 大 会 "上 , 首次 参与 宣传 推广 的 
“课题 数据 宝 ?产品 即 吸引 了 众多 与 会 科学 数据 专家 、 
学 者 和 科研 人 员 的 目光 , 并 最 终 获 得 大 会 专家 委员 会 
的 一 致 认可 ,这 获 了 大 会 “最 佳 展示 奖 ”。 各 个 领域 的 
科研 学 者 也 针对 数据 管理 流程 、 安 全 性 等 方面 为 
TeamDR 提出 许多 建议 和 设想 。 


$5 结论 与 展望 


随 着 各 学 科 领 域 的 持续 科学 研究 与 发 展 ,伴随 科 
研 过 程 而 产生 的 试验 数据 、 观 测 数据 和 文献 数据 等 异 
质 异 构 数 据 的 规模 在 不 断 扩大 ,如 何 能 够 持续 积累 与 
有 效 管理 这 些 科研 数据 资产 , 构建 高 质量 的 课题 数据 
知识 库 成 为 越 来 越 重 要 的 问题 。TeamDR 致力 于 帮助 
科研 团队 进行 科研 过 程 数据 的 有 效 存储 与 管理 , 将 对 
解决 这 些 问题 带 来 极 大 的 帮助 。 

TeamDR 在 系统 化 功能 完善 方面 还 存在 不 足 , 需 
要 进一步 改进 。 主 要 表现 在 TeamDR 与 现 有 的 权威 数 
据 知 识 库 的 接口 对 接 方面 ; TeamDR 本 地 数据 存储 与 
云端 数据 进行 实时 同步 方面 ; 基于 相机 、GPS 定位 、 
重力 感应 的 TeamDR 移动 端 数据 采集 与 同步 APP 设计 
方面 ; TeamDR 数据 资源 版 本 控制 方面 等 。 

通过 深入 了 解 科 研 用 户 的 需求 ,， 持续 提升 产品 功 
能 ，TeamDR 会 成 为 科研 团队 数据 管理 不 可 或 缺 的 重 
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要 工具 之 一 , 同时 笔者 也 希望 TeamDR 的 研制 能 为 科 
学 数据 知识 库 建设 实践 拓展 一 个 新 的 思路 和 方向 。 
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TeamDR: A Data Repository Management System for Research Teams 


LiuFeng™”” LiJianhui Zhang Jin! HanFang' LiuAng! 
!(Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China) 
“(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
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Abstract: [Objective] This study aims to effectively storage, manage and reuse scientific data with the help of a 
specialized data repository management system, the TeamDR, for the research teams. [Context] TeamDR is a Web tool 
helping scientific research team members organize, storage, manage and share data. It was developed by Java and 
offered cloud-based and standalone services. [Methods] We first designed a dynamic metadata template to organize 
and manage scientific research data. MongoDB was then adopted to improve data storage capacity and query 
performance. [Results] TeamDR stores and manages the scientific research data effectively with the support of, 
dynamic metadata template, categorized sharing control, and full-text search of metadata. Users’ feedbacks show that 
TeamDR meets the demands of scientific data storage and management. [Conclusions] TeamDR effectively addresses 
the issues of scientific data storage and management, data sharing and collaboration, data discovery and linking. 
However, this system’s usability, completeness and extensibility could be further improved. 
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